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中 网 络 内 容 安全 是 最 突出 的 
t 战 。 本 文 从 网 络 数 : 


分 类 


困 系 统 顾 


背景 与 研究 意义 


近年 来 ， 随 着 信息 技术 的 普及 和 发 
的 利用 网 络 来 传 反 


滤 分 类 具有 习 


理 技术 往往 


分 类 ， 


只 利用 网 络 ， 
这 种 方法 准确 
的 需求 。 而 利 月 


5 了 多 种 不 同 结构 


完了 面向 信 ， 


昌 流 分 类 模型 索引 F9 过 滤 系 统 


的 信息 ， 


中 


十 


看 的 工作 : (1) 多 通道 
借 型 ; 〈2) 分 类 模型 索引 技术 
站 别 速度 ; (3) 多 通道 网 络 流 
f 模 型 与 算法 的 实验 平台 。 以 上 三 
息 过 滤 的 多 通道 网 络 流 分 类 系统 。 


展 ， 互 联网 已 经 深入 社会 生活 的 方方面面 ， 随 之 而 来 
反动 、 色 情 内 容 等 恶意 信息 的 问题 也 越发 严重 。 因 
EE 大 意义 。 网络 数据 流 包 折 
Uniform Resources Locator) 信息 以 及 文本 图 


此 对 网 络 数 据 流 进行 过 
如 IP 信息 , 网 页 地 址 (URL， 
片 信息 等 多 媒体 内 容 ， 传 统 的 网 络 内 容 安全 处 


度 差 ， 
网 络 数 据 流 多 通道 信息 进行 分 类 过 滤 ， 


言 息 进行 过 滤 分 类 , 如 利用 
并 且 极 易 被 破解 (如 将 文本 租 入 到 图 片 中 )， 难 
内 其 精确 度 高 


网 


页 文本 或 网 页 地 址 对 网 络 流 进 


以 达到 实际 应 
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已 经 得 到 学 术 界 和 工业 界 的 广泛 关注 ， 并 成 为 网 络 安全 领域 的 研究 热点 。 


行 
用 


人 以 破解 的 优势 ， 


多 通道 网 络 流 是 指 在 网 络 访问 中 ， 多 通道 网 络 流 
一 个 网 络 请 求 所 对 应 的 网 络 内 容 信息 
(比如 文本 流 、 图 片 流 、 视 频 和 音频 i 
流 等 ) 和 网 络 结构 信息 (比如 网 页 地 gx 页 面 请 求 “a 图 片 
址 链接 、IP 地 址 、 协 议 类 型 等 ) 的 总 洁 求 的 癌 员 视频 音频 
和 。 由 于 用 户 的 网 络 访问 行为 由 多 通 bi oe 
道 信息 构成 ， 为 了 判别 一 个 用 户 访 问 ee 
自 不 句 今 赣 注 倍 自 可 以 联 会 议 此 Kg \, 
ns s 协议 类 型 ”网 址 链接 
过 址 百 心 I J 凡 口 全。 SS 

言 息 过 滤 的 核心 问题 是 如 何 构造 国 守 人 
多 通道 网 络 流 上 的 精确 分 类 模型 ， 以 2 
对 未 来 任意 未 知 的 流量 进行 准确 关 On 
别 。 其 中 ,一 种 有 效 的 方法 是 基于 结果 融合 的 多 通道 网 络 流 分 类 模型 ， 该 类 模型 首先 提取 各 
个 通道 上 的 特征 信息 , 然后 在 每 个 通道 上 分 别 构造 分 类 器 , 最 后 把 这 些 分 类 器 的 结果 融合 起 


来 进行 综合 判断 。 
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2 ”相关 工作 


面向 过 滤 的 多 通道 网 络 流 分 类 技术 是 网 络 内 容 安全 处 理 的 核心 技术 , 它 与 深度 分 组 检测 
(Deep Packet Interception，DPI) 技术 5， 字符 串 匹 配 技术 0， 信息 抽取 技术 吕 ， 多 媒体 特 
征 抽取 技术 ， 数 据 索引 技术 ， 数 据 库 技术 等 紧密 相关 。 学 术 界 与 工业 界 有 很 多 工作 从 不 同 的 
角度 来 前 述 和 解决 这 个 问题 。 


网 络 流 过 滤 问 题 可 以 看 作 是 一 个 数据 分 类 问题 。VFDT (Very Fast Decision Tree， 快 速决 
策 树 ) 口 是 专门 针对 数据 流 分 类 的 决策 树 ， 随 着 数据 流 的 增长 ， 以 增 量 方式 与 数据 流 模式 相 
对 应 生成 。 但 是 VFDT 无 法 处 理 数据 流 概 念 漂移 的 问题 , CVFDT (Concept-adapting Very Fast 
Decision Tree， 概 念 调整 快速 决策 树 ) 中 解决 了 这 个 问题 。 它 不 断 对 决策 树 进行 裁剪 ， 并 应 对 
新 的 模式 生成 新 的 决策 分 枝 ，, 这 很 好 地 解决 了 数据 流 概念 漂移 的 问题 。VFDTc 中 对 VFDT 进 
行 扩展 ， 使 其 可 以 处 理 连 续 属 性 ， 并 可 应 对 概念 漂移 情况 。 这 样 的 数据 流 分 类 方法 ， 人 工 无 
法 定制 过 滤 规 则 ， 因 此 不 适 于 用 信息 安全 领域 的 网 络 流 过 滤 。 


当前 ， 国 际 上 也 已 有 专门 针对 数据 流 进行 管理 和 判别 的 应 用 系统 。 其 代表 有 斯 坦 福 大 学 
的 STREAM ( STanford stREam datA Manager) 系统 中。 它 支 持 类 似 SQL' 语 言 的 数据 流 查 询 
语言 CQL (Continues Query Language) 中。 通过 CQL 可 以 注册 连续 查询 ， 对 数据 流 进行 查 
询 操作 。 它 文 持 SQL 语言 的 大 部 分 语法 ， 由 于 数据 流 的 特殊 性 ， 这 样 的 查询 总 是 针对 某 一 
时 间 窗 口 的 ， 并 且 返 回 的 结果 是 近似 值 。 如 果 将 注册 的 连续 查询 看 作 是 分 类 规则 的 话 ， 
STREAM 系统 是 一 个 文 持 复杂 规则 的 网 络 流 分 类 过 滤 系 统 , 但 是 STREAM 系统 缺少 对 复杂 
过 滤器 的 文 持 。 


尽管 现 有 的 解决 方案 众多 ,但 仍 存在 以 下 几 点 不 足 : (1) 这 些 解 决 方案 只 能 处 理 单一 形式 
的 数据 流 ， 无 法 处 理 多 通道 网 络 数据 流 ，(2) 在 数据 流 分 类 的 研究 上 大 都 只 考虑 如 何 建 并 分 
类 模型 ， 关 注 点 是 分 类 精度 ， 而 不 考虑 分 类 的 速度 。 然 而 ， 在 高 速 网 络 流 过 滤 分 类 问题 上 ， 
分 类 的 速度 与 精度 一 样 重要 ; (3) 目前 开发 的 系统 都 在 模拟 环境 下 进行 测试 ， 缺 少 在 真实 网 
络 环境 下 的 大 流量 和 高 强度 测试 。 


3 ”我 们 的 研究 工作 介绍 


围绕 多 通道 网 络 流 分 类 的 模型 构造 、 横 型 索引 和 系统 开发 这 三 方面 问题 ， 我 们 开展 了 多 
通道 网 络 流 上 的 集成 分 类 模型 研究 、 基 于 R- 树 ?的 分 类 模型 索引 技术 研究 、 以 及 F9 实验 平 
台 建设 。 其 中 ， 分 类 模型 的 研究 主要 解决 网 络 流 分 类 中 的 基础 理论 问题 模型 索引 方面 的 研 
究 主要 解决 模型 的 实时 判别 问题 ，F9 系统 开发 工作 则 主要 解决 模型 测试 和 应 用 转化 问题 
这 些 工作 互相 促进 ， 构 成 了 一 个 整体 。 

3.1 面向 过 滤 的 多 通道 网 络 流 分 类 模型 

当 融 合 各 个 通道 的 信息 的 时 候 ， 每 个 通道 上 的 决策 可 能 会 相互 矛盾 。 如 图 2 所 示 ， 对 
于 一 个 包含 多 媒体 内 容 的 网 页 ,从 内容 层面 上 来 看 , 文本 通道 上 的 判别 结果 和 图 片 通道 上 的 
结果 可 能 不 同 。 从 网 络 结构 的 角度 来 看 ， IP 地 址 通道 或 者 网 页 地 址 通道 也 可 能 给 出 不 同 的 
决策 结果 。 总 之 ， 当 融合 各 个 通道 的 信息 的 时 候 ， 一 个 不 可 避免 的 问题 就 是 各 个 通道 上 的 决 


1 Structured Query Language， 结 构 化 查询 语言 
? R-Tree (real-tree)， 是 B-tree 向 多 维 空间 发 展 的 一 种 形式 ， 它 将 空间 对 象 按 范围 划分 ， 每 个 结 点 都 对 应 一 
个 区 域 和 一 个 磁盘 页 ， 是 目前 流行 的 空间 索引 。 详 见 本 文 83.2 
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此 外 ， 当 把 多 个 不 同 通道 上 的 判 
别 器 进行 融合 的 时 候 ， 从 决策 模型 的 
角度 必须 考虑 到 : (1) 各 个 判别 器 a : 时 
的 领域 不 同一 一 它们 可 能 分 别针 对 。 村 a 到 于 
文本 、 图 像 、 网 页 地 址 等 不 同 对 象 ; IO 
(2) 各 个 判别 器 的 判别 能 力 不 同 一 Pi 

一 由 于 在 数据 流 上 的 训练 成 本 很 高， 
因此 ， 我 们 往往 只 能 构造 一 小 部 分 的 二 
分 类 器 ， 而 构造 聚 类 器 则 较为 容易 ; 图 2. 多 通道 决策 矛盾 问题 
(3) 各 个 判别 器 的 判别 能 力 会 随时 
间 变 化 一 一 由 于 数据 流 是 连续 变化 的 , 各 个 判别 器 对 其 的 判别 能 力 一 般 会 随时 间 衰 减 。 我 们 
是 出 了 一 个 聚 类 器 和 分 类 器 组 合 的 决策 模型 , 从 决策 融合 的 角度 采用 以 下 三 步 来 解决 以 上 三 
个 问题 。 


视频 : 不 过 滤 
文本 : 过 滤 


第 一 步 : 决策 编码 这 实际 上 是 解决 不 同 模型 之 间 的 相似 性 度量 问题 。 举 个 例子 ， 假 设 
需要 把 一 个 网 页 判别 为 三 类 (风险 高 、 风 险 中 、 风 险 低 ) 中 的 一 类 ， 我们 训练 了 四 个 不 同类 
型 的 判别 器 XA、x?、、M， 其 中 前 两 个 是 分 类 器 ， 后 面 两 个 是 聚 类 器 。 对 于 当前 到 来 的 7 
个 网 页 x1，……… ，x7， 假 设 得 到 的 判别 结果 如 表 1 所 示 。 其 中 % 是 对 应 的 编码 的 基 。 由 于 是 
三 类 分 类 问题 ， 每 个 模型 都 使 用 三 个 基 ， 每 个 样本 都 对 应 一 个 坐标 ， 比 如 网 页 xi 被 模型 和 
分 为 第 一 类 ， 它 的 坐标 为 [1, 0,0]。 这 样 ， 我 们 就 可 以 通过 杰 卡 德 距离 ? (Jaccard distance ) 
来 度量 两 个 基 之 间 的 相似 性 。 比 如 基 gy 和 gs 的 相似 性 是 23， 而 gs 和 go 的 相似 性 是 15， 也 
就 是 说 ，gs 和 gs 更 加 相似 。 


类 / 聚 类 标识 符 


96 197 98 


= 
下 


第 二 步 : 决策 传播 当 各 个 基 之 间 的 相似 性 被 计算 出 来 以 后 ， 接 下 来 的 问题 就 是 如 何在 
这 些 基 之 间 传 播 相 似 性 了 。 其 目的 是 要 把 所 有 聚 类 器 对 应 的 基 (Cluster ID ) 映射 到 一 个 真 
正 的 类 别 标签 (Class Label) 上 。 对 于 一 个 标签 未 知 的 聚 类 器 ， 我 们 的 基本 思想 是 先 把 所 有 
的 分 类 器 组 合 起 来 推导 该 聚 类 器 的 标签 ,然后 利用 其 他 的 聚 类 器 来 修正 该 结果 。 这 是 因为 当 
分 类 器 很 少 的 时 候 , 仅仅 依靠 分 类 器 无 法 推导 精确 的 标签 , 还 需要 利用 到 聚 类 器 之 间 的 结构 
相似 性 进行 修正 。 


第 三 步 : 决策 协商 当 数 据 流 中 潜在 模式 发 生 连续 变化 的 时 候 ， 各 个 模型 在 决策 中 的 作 


” 杰 卡 德 距离 用 两 个 集合 中 不 同 元 素 占 所 有 元 素 的 比例 来 衡量 两 个 集合 的 区 分 度 
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用 将 随时 间 改 变 。 为 此 ， 根 据 数据 流 中 模式 的 “最 近 最 相似 ”原则 ， 对 各 个 模型 依据 其 和 最 
近 一 个 模型 的 相似 性 进行 加 权 。 最 后 的 加 权 平 均 将 用 来 进行 最 后 的 决策 。 


通过 以 上 三 步 ， 我 们 可 以 以 较 低 的 代价 构筑 多 通道 网 络 流 上 的 决策 〈 结 果 ) 融合 模型 。 
如 图 3 中 所 示 ， 在 UCI 恶意 网 站 检测 〈 左 图 ) 和 KDDCUP’99 入 侵 检 测 〈 右 图 ) 数据 集 上 
的 测试 结果 表明 ， 融 合 多 个 通道 上 的 信息 进行 分 类 的 分 类 模型 (ECU)， 比 以 往 任 何 单一 通 
道上 的 分 类 模型 (EC1 和 EC2 ) 精度 都 要 高 ,注意 此 处 的 精度 是 此 被 正确 分 类 的 数据 占 全 部 
数据 的 比例 ， 比 例 范围 是 0 到 1 之 间 。 


5 10 15 20 25 30 35 人 全 10 15 20 25 30 35 40 


数据 块 编号 数据 块 编号 


图 3. 在 UCI 恶意 网 站 检测 外 和 入 侵 检测 数据 集 的 前 40 个 数据 块 上 的 对 比 结果 
3.2 基于 R- 树 的 分 类 模型 索引 


决策 树 是 一 种 分 类 模型 。 它 构造 简单 ， 执 行 速度 很 快 ， 很 适 于 对 网 络 流 进行 分 类 。 在 实 
现 多 通道 数据 流 过 滤 时 ， 通 常 如 果 只 用 一 个 决策 树 在 分 类 精度 上 难以 满足 实际 应 用 的 需求 。 
集成 分 类 器 可 以 很 好 地 解决 这 个 问题 。 所 谓 集成 分 类 器 ,就 是 使 用 多 个 分 类 器 来 对 数据 进行 
分 类 ， 再 对 每 个 分 类 器 得 出 的 结果 进行 综合 得 出 最 终 的 分 类 结果 。 实 验 显示 使 用 集成 分 类 器 
来 进行 多 通道 数据 流 过 滤 可 以 达到 令 人 满意 的 精度 , 但 是 分 类 的 时 间 开 销 会 随 着 分 类 器 数目 
的 增加 而 线性 增加 (如 图 5 实验 结果 所 示 )。 在 高 速 网 络 流 环境 中 ， 这 是 不 可 接受 的 。 通 过 
对 集成 分 类 器 的 决策 树 利用 基于 R- 树 的 索引 结构 进行 索引 ， 可 以 大 大 降低 分 类 的 时 间 开 销 ， 
使 集成 分 类 器 在 高 速 网 络 数据 流 环 境 中 变 得 可 行 。 


下 面 介绍 R- 树 20。R- 树 是 格 特 曼 〈A. Guttman) 在 1984 年 提出 的 。R- 树 是 经 典 的 
索引 结构 B- 树 的 多 维 扩展 。R- 树 和 B- 树 一 样 ， 是 一 种 高 度 平衡 的 多 路 搜索 树 ， 是 一 种 外 存 
索引 结构 。 不 过 ,，R- 树 的 思想 很 容易 推广 到 内 存 索 引 的 情况 。R- 树 的 一 个 结 点 是 若干 个 索引 
记录 的 数组 ， 对 于 叶 结 点 ， 它 的 索引 记录 具有 如 下 形式 : (1, tuple-ID)。 其 中 了 是 一 个 n 维 算 
形 ， 即 一 个 空间 目标 的 n 维和 矩形 表示 ，Tuple-ID 是 一 个 空间 目标 的 编号 。 对 于 非 叶 结 点 ， 
它 的 索引 记录 上 共有 如 下 的 形式 (I, child-pointer)。 其 中 I 是 一 个 n 维和 矩形 ，chilqd-pointer 是 
一 个 指向 下 一 级 子 结 点 的 指针 ,了 是 履 盖 了 child-pointer 所 指 的 结 点 中 所 有 和 矩形 的 最 小 矩形 。 


R- 树 检索 过 程 要 解决 的 问题 很 简单 ， 就 是 给 定 一 个 n 维 窍 形 ， 判 定 索 引 中 哪些 矩形 履 盖 
了 它 。R- 树 的 检索 过 程 是 从 树 根 往 下 遍历 ， 但 不 同 的 是 ， 由 于 R- 树 每 个 结 点 中 各 个 索引 记 
录 中 的 矩形 可 能 重修, 因此 需要 顺序 检查 结 点 中 的 每 个 索引 记录 , 这 可 能 导致 裔 历 当前 结 点 
的 多 个 子 树 。 所 以 最 坏 情况 下 ，R- 树 的 检索 可 能 要 访问 树 中 所 有 的 结 点 。 也 就 是 说 最 坏 的 情 
况 下 ， 需 要 将 数据 样本 一 个 个 地 与 分 类 规则 进行 比较 。 但 平均 情况 下 ， 只 需 访问 R- 树 少数 
几 个 结 点 就 能 完成 检索 。 


于 了 R- 树 是 一 种 针对 空间 位 置 的 索引 , 所 以 只 能 用 来 索引 连续 属性 。 并 且 由 于 高 维 空间 
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在 处 理 超 高 维 的 数据 时 存在 一 些 困 难 。 我 们 的 主要 工作 ， 在 于 在 R- 树 


入 R- 树 的 合适 的 入 
表 


结 点 ， 其 数据 结构 如 


| 村 


， 通 过 哈 希 来 找到 进 


图 4 所 示 : 


图 4. 基于 R- 树 的 分 类 模型 索引 


我 们 分 别 在 人 工 数据 集 (图 $S-D)、UCI 恶意 网 页 地 址 检测 数据 集 (图 $-ID)、UCI 垃圾 邮 
件 检测 数据 集 (图 $-III) 和 KDDCUP?99 入 侵 检测 数据 集 (图 $S-IV) 上 进行 了 测试 ， 结 果 
表明 使 用 基于 R- 树 的 索引 结构 比 不 使 用 索引 结构 时 时 间 开 销 有 显著 下 降 ， 而 且 ， 进 行 索引 
后 分 类 的 时 间 开 销 对 集成 分 类 器 中 分 类 模型 的 增加 变 得 不 敏感 。 


300 
-如 - E-Tree ~- 如- E-Tree 
一 一 Ensemble 250 一 一 Ensemble 
一 200 
会 
二 150 
到 
上 100 
避 
在 50 
-gH--8---8---E----8---93--"H | XX: 站 -- 旭 --- 日 --- 晶 --- 自 -- 和 如-- 避 -- 间 
-= 日 0 _ -0 DO OG 日 日 唱 
10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 
分 类 模型 数量 分 类 模型 数量 
(1) (I1) 


-如 -~ E-Tree 
-一 一 Ensemble 
-如 - E-Tree 
一 一 Ensemble 


be 
0 10 20 30 40 50 60 70 80 90 100 
分 类 模型 数量 


(CII) (IV) 
图 5. 进行 索引 与 不 进行 索引 的 分 类 模型 在 分 类 速度 上 的 比较 〈 横 轴 是 集成 分 类 器 中 分 类 模 
型 的 个 数 ， 纵 轴 是 对 一 个 数据 进行 分 类 的 时 间 开 销 ) 


中 在 
0 10 20 30 40 50 60 70 80 90 100 
分 类 模型 数量 


3.3 多 通道 网 络 流 分 类 过 滤 实 验 平台 : F9 
真实 网 络 环境 具有 复杂 性 与 不 可 预知 性 ， 所 以 很 多 在 理论 上 很 好 的 算法 与 模型 在 真实 网 
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络 环 境 中 的 性 能 并 不 如 预期 的 好 , 并 且 由 于 网 络 流 的 复杂 性 , 使 得 人 造 实验 数据 难以 模拟 真 
实数 据 。F9 系统 的 设计 目标 就 是 从 真实 的 网 络 环 境 中 获取 网 络 数据 流 ， 对 模型 和 算法 的 性 
能 进行 检测 ， 同 时 也 可 作为 真实 数据 流 过 滤 系 统 的 原型 系统 。 


F9 系统 实现 了 以 下 功能 
1. 数据 流 分 析 : 此 功能 是 利用 分 析 引 擎 对 高 速 数据 流 网 关中 数据 流 进行 有 效 的 协议 还 
原 和 流 拼接 , 将 还 原 的 数据 流 用 分 析 引 警 的 匹配 算法 进行 高 效 的 规则 匹配 分 析 , 检 
测 出 满足 匹配 规则 的 数据 流 ; 


2. ”规则 库 管理 : 系统 管理 员 通 过 配置 管理 界面 动态 增删 过 滤 规 则 , 特征 提取 分 析 模 块 
将 动态 生成 的 规则 数据 传递 给 分 析 引 擎 , 分 析 引 擎 动态 通过 调整 内 存 数 据 结构 使 动 


态 规则 数据 生效 ; 

3. 网 络 连接 阻 断 : 通过 黑白 名 单 的 动态 设置 , 利用 系统 的 串联 接 入 方式 ， 实现 对 特定 
数据 流 的 实时 阻 断 ; 

4. 协议 还 原 分 析 : 通过 对 网 关中 数据 流 进行 有 效 的 协议 还 原 , 按照 协议 类 别 进行 有 效 
的 内 容 提取 。 


文本 分 析 引 擎 
AC 自 动机 


图 片 分 析 引 擎 


一 串 分 析 规 则 
1 串 行 进行 
C id 读 ”FIFO, 传递 
> _ 数据 块 ID 如 命中 ， 写 
EO OO 
黑 名 单 、 新 规则 
依据 黑 名 单 
. 进行 判断 人 


路 由 决策 连接 阻 断 模块 
下 


图 6. F9 系统 流程 图 


F9 通过 采用 串联 过 滤 控 制 和 旁 路 侦 听 结合 的 设计 , 实现 对 多 媒体 流 的 实时 高 效 的 监管 控 
制 。 系 统 主要 包括 : 连接 阻 断 模块 、 协 议 还 原 分 析 模 块 、 数 据 分 析 模 块 、 规 则 发 现 模块 、 规 
则 库 管 理 模块 ， 其 中 : 连接 阻 断 模块 根据 管理 的 黑 名单 ， 对 数据 流 进 行 有 效 的 地 址 分 析 并 实 
施 必 要 拦截 阻 断 ; 协议 还 原 分 析 模 块 利用 旁 路 监听 技术 将 网 卡 中 的 媒体 流 数据 导入 到 数据 分 
析 服 务 器 中 ， 然 后 对 导入 的 原始 数据 流 进 行 有 效 的 协议 分 析 ， 识 别 出 数据 流 所 承载 的 协议 ， 
并 按照 数据 流 所 属 协 议 的 规则 进行 有 效 的 内 容 抽取 , 分 析 其 承载 的 数据 内 容 , 如 图 片 、 文 本 、 
网 页 地 址 等 ; 数据 分 析 模 块根 据 协议 还 原 分 析 模 块 导 入 的 数据 信息 类 别 ， 分 别 调用 分 析 引 擎 
内 相对 独立 的 分 析 进 程 ， 判断 出 导入 的 数据 信息 是 否 是 敏感 数据 ， 如 果 是 敏感 数据 ， 则 记录 
其 地 址 信息 并 导入 到 连接 阻 断 模块 使 用 的 黑 名 单列 表 中 ; 规则 发 现 模块 利用 聚 类 技术 将 内 容 
分 析 服 务 器 中 获取 的 数据 流 〈 包 括 文本 和 图 片 ) 进行 快速 的 抽取 和 肾 集 ,将 聚 类 进程 产生 的 
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流 输入 
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结果 以 页 面 的 形式 展现 并 根据 人 工 选 择 性 标示 写 入 规则 库 数 据 集中 ; 规则 库 管理 模块 主要 是 
通过 界面 完成 规则 库 的 增删 改 查 操作 以 及 一 些 辅助 的 权限 控制 操作 。F9 系统 的 工作 流程 如 
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图 6 所 示 
4 总 结 


面向 过 滤 的 多 通道 网 络 流 分 类 技术 是 网 络 内 容 安 全 处 理 的 核心 技术 ,利用 多 通道 信息 对 


数据 流 进行 过 滤 在 精度 和 抗 破解 性 上 较 传 统 方法 有 巨大 的 优势 。 近 年 来 , 我 们 在 多 通道 网 络 
流 分 类 方面 的 研究 取得 了 诸多 进展 , 包括 开发 了 准确 的 流 分 类 模型 ; 构造 了 高 效 的 模型 索引 


结构 ;以 及 开发 了 面向 应 用 的 F9 多 通道 网 络 流 过 滤 平 台 。 这 些 工 作 相 辅 相 成 ， 构 成 了 一 个 


有 机 的 整体 ， 为 以 后 在 多 通道 网 络 流 过 滤 方 面 的 深入 研究 葛 定 了 基础 。 
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